Паттерны и профили

Создание паттернов аминокислотных последовательностей

Множественное выравнивание аминокислотных последовательностей белков, полученное на прошлом занятии при помощи программы muscle было импортировано в GeneDoc для того, чтобы выбрать фрагмент выравнивания, подходящий для создания паттерна. Полученный фрагмент включает в себя 13 колонок выравнивания, из которых 3 консервативны на 100% и 3 - на 70%

Таблица основных результатов поиска по паттернам в базе Swiss-Prot
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности RVRIEAQMHGGGH 10 найдены только 2 последовательности из выравнивания
Сильный x(0,1)-[VL]-[RKAQ]-[IFLVE]-[ERMVTQ]-[PAN]-[LQEP]-[MILW]-[HEDNIR]-G(2)-[GHK]-[QHS] 50 все
Слабый [VL]-x(7)-G(2)-[GHK] 18101 все

Поиск в Swiss-Prot проводился по 3 паттернам: сильному, слабому, и представляющему собой последовательность моего белка. Как и следовало ожидать, меньше всего находок было выдано в последнем случае, т.к. такой паттерн является самым строгим. Все найденные белки имеют первой частью своего названия ISCS и, что интересно, во всех 10 последовательностях искомый мотив стоит на одних и тех же позициях аминокислотных остатков - с 223 по 235 - это указывает на близкое родство найденных белков.
По сильному паттерну было найдено 50 белков. Вообще говоря, сам паттерн строился так, чтобы по нему можно было найти все последовательности из выравнивания и как можно меньше других. Для этого даже в неконсервативных столбцах указывались как допустимые все остатки, встретившиеся на данной позиции в белках из выравнивания. В итоге, программа выдала 50 белков, среди которых, естественно, оказались все белки из выравнивания, а также все белки, найденные по паттерну, описанному выше. Помимо ISCS в списке выдачи появились группы белков NIFS и SUFS.
И наконец, по слабому паттерну, как и следовало ожидать, было найдено огромное число белков из множества различных групп. Вообще говоря, в этом случае в найденных структурах совпадения с паттерном ни о чем не говорят, большая часть белков не являются родственными или гомологичными друг другу. Или, если точнее, находки можно было бы развить на группы, внутри которых белки близки друг другу, но таких групп было бы огромное количество и между собой они по большей части не были бы связаны.

Все описанные в PROSITE мотивы в заданном белке ISCS_Ecoli

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00595 AA_TRANSFER_CLASS_5 Сайт связывания пиридоксальфосфата аминотрансферазы класса V паттерн [LIVFYCHT] - [DGH] - [LIVMFYAC] - [LIVMFYA] - x(2) - [GSTAC] - [GSTA] - [HQR] - K - x(4,6) - G - x - [GSAT] - x - [LIVMFYSAC] специфична 1
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II паттерн [ST] - x(2) - [DE] неспецифична 6
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 6
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеинкиназы С паттерн [ST] - x - [RK] неспецифична 4
PS00007 TYR_PHOSPHO_SITE Сайт фосфорилирования тирозинкиназы паттерн [RK] - x(2) - [DE] - x(3) - Y or [RK] - x(3) - [DE] - x(2) - Y неспецифична 2
PS00001 ASN_GLYCOSYLATION N-гликозилирование паттерн N - {P} - [ST] - {P} неспецифична 1

Построение PSSM и определение веса последовательности по полученной матрице

Мы создавали позиционно-специфичную матрицу частот аминокислотных остатков (PSSM). Для этого необходимо было файл с фрагментом выравнивания подать на вход программе prophecy пакета EMBOSS. Был получен выходной файл - part2.prophecy - собственно матрица. Затем по этому файлу и файлу с фрагментом выравнивания при помощи программы profit был найден вес последовательностей по полученной матрице PSSM, результат - в файле part2.profit Получили, что наибольший вес по матрице имеет последовательность ISCS_ECOLI. Следующие 4 последовательности по весу - также ISCS, а 2 последние - NIFS, что говорит об их меньшем сходстве с белками ISCS.

Главная страница
К работам второго семестра


© Денисенко Елена, 2007